时间序列预测是一个重要的问题,具有许多现实世界的应用。深度神经网络的合奏最近实现了令人印象深刻的预测准确性,但是在许多现实世界中,如此大的合奏是不切实际的。变压器模型已成功应用于各种具有挑战性的问题。我们建议对原始变压器体系结构进行新颖的改编,重点是时间序列预测的任务,称为持久性初始化。该模型通过使用与残留跳过连接的乘法门控机制初始化为幼稚的持久性模型。我们使用具有REZERO标准化和旋转位置编码的解码器变压器,但适应适用于任何自动回归神经网络模型。我们评估了有关挑战性M4数据集的拟议体系结构,与基于合奏的方法相比,取得了竞争性能。我们还将最近提议的变压器模型进行比较,以预测时间序列,显示了M4数据集中的卓越性能。广泛的消融研究表明,持久性初始化会导致更好的性能和更快的收敛性。随着模型的大小的增加,只有我们提出的适应性增长的模型。我们还进行了一项额外的消融研究,以确定正常化和位置编码的选择的重要性,并发现旋转编码的使用和REZERO归一化对于良好的预测性能至关重要。
translated by 谷歌翻译